http://www.arocmag.com/article/02-2019-04-035.html 


基于 特征 选择 与 集成 学 习 的 钓鱼 网 站 检测 方法 
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摘 要 : 针对 目前 大 部 分 钓鱼 网 站 检测 方法 存在 检测 准确 率 低 、 误 判 率 高 等 问题 ， 提 出 了 一 种 基于 特征 选择 与 集成 学 
习 的 钓鱼 网 站 检测 方法 。 首 先 使 用 FSIGR 算法 进行 特征 选择 ， 该 算法 结合 过 滤 和 封装 模式 的 优点 ， 从 信息 相关 性 和 分 
类 能 力 两 个 方面 对 特征 进行 综合 度量 ， 并 采用 前 向 递增 后 向 递归 别 除 策略 对 特征 进行 选择 ， 以 分 类 精度 作为 评价 指标 


对 特征 子 集 进行 评价 与 选择 ， 从 而 获取 最 优 特征 子 集 ; 然后 使 用 选择 后 的 最 优 特征 子 集 基 于 随机 森林 集成 学 习 分 类 算 
法 进行 训练 。 在 UCI 数据 集 上 的 实验 表明 ， 所 提 方 法 能 够 有 效 提高 钓鱼 网 站 检测 的 正确 率 ， 降 低 误 判 率 ， 具 有 实际 应 
用 意义 。 
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Abstract: In view of the fact that most phishing websites detection methods have the problems of low detection accuracy and 


wu high false positive rate and other issues, this paper proposed a phishing website detection method based on feature selection and 


integrated learning. Firstly, the FSIGR algorithm was used to select feature. The FSIGR algorithm combined with the advantages 


of filter and wrapper modes. First, it carried out a comprehensive measurement of features from two aspects of information 
correlation and classification ability. Second, it used recursive elimination after increasing forward strategy to select the features, 
and used the classification accuracy as the evaluation index to measure and select the feature subset. Finally, it obtained the 
optimal feature subset. Then, based on random forest integrated learning classification algorithm, it trained the selected optimal 
feature subset. Experiments on the UCI dataset show that this method can improve the accuracy of phishing websites detection 
and reduce the false positive rate. 
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n 523 Ik, LE 2015 年 增加 65% 。 其 中 ,， 受 钓鱼 网 站 影响 最 严重 的 
0 引言 国家 是 中 国 ，47.09% 的 机 器 受到 感染 D]。 

随 着 互联 网 的 不 断 发 展 、 普 及 和 用 户 数量 的 增加 ， 特 别 是 虽然 攻击 者 使 用 不 同 的 技术 创建 钓鱼 网 站 来 欺骗 用 户 ， 但 
电子 商务 的 快速 发 展 ， 互 联网 安全 问题 变 的 尤其 重要 。 钓 鱼网 也 们 都 使 用 一 组 常见 特征 来 设计 钓鱼 网 站 。 因 此 ， 这 也 给 反 恶 
站 (phishing) 就 是 互联 网 安全 威胁 之 一 , 它 是 模仿 合法 网 站 恶 。” 意 网 站 工作 者 提供 了 解决 问题 的 方法 与 思路 。 目 前 钓鱼 网 站 检 
意 创造 出 来 的 一 个 假 网 页 ， 并 使 用 社会 工程 技术 对 网 络 用 户 进 ” 测 方 法 主要 有 用 户 教育 路 9、 黑 名 单 技术 [58 和 启发 式 技术 [19 


行 恶 意 攻击 ， 从 而 获取 利益 和 用 户 名 、 密 码 等 私密 信息 (324。 根 ” 5€. 其中， 启发 式 技术 的 研究 和 使 用 较为 广泛 ， 它 主要 是 通过 
据 反 钓鱼 网 站 工作 组 CAPWGO 的 报告 显示 ,在 2016 年 第 四 季 ”提取 网 站 的 相关 特征 ， 然 后 应 用 启发 式 规则 或 者 机 器 学 习 算法 
度 ，APWG 每 月 平均 发 现 网 络 钓鱼 袭击 92 564 次 , 与 2004 年 。 对 特征 进行 处 理 , 以 达到 对 网 页 进行 分 类 (合法 /钓鱼 ) 的 目的 。 
相 比 12 年 间 增 加 5 753%; 2016 年 网 络 诈骗 攻击 总 数 为 1 220 ”文献 [11] 通 过 对 网 页 标题 ,关键 字 等 进行 特征 提取 , 并 采用 NBC 
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和 SVM 分 类 算法 作为 基 分 类 器 ， 采 用 分 类 集成 方法 综合 基 分 
类 器 的 检测 结果 ， 提 出 了 一 种 有 效 的 钓鱼 网 站 智能 检测 系统 。 
文献 [12] 基 于 SVM 分 类 算法 提出 了 一 个 针对 URL 进行 匹配 过 
滤 和 分 类 识别 的 网 络 钓鱼 检测 系统 ， 该 系统 虽然 能 够 提高 钓鱼 
网 站 预测 的 准确 率 , 但 仅 适 用 于 低 维 小 样本 数据 。 文献 [13] 使 用 
K-means 算法 对 URL 特征 或 者 页 面 特征 进行 处 理 , 以 达到 预测 
钓鱼 网 站 的 目的 。 该 方法 虽然 在 一 定 程度 上 能 提高 预测 模型 的 
分 类 精度 , 但 分 类 分 性 能 有 限 。 文 献 [14] 通 过 对 比 多 元 感知 器 、 
决策 树 和 贝 叶 斯 分 类 算法 对 钓鱼 网 站 的 预测 性 能 发 现 相 对 于 其 
他 两 种 分 类 算法 ， 决 策 树 分 类 模型 具有 较 优 的 分 类 性 能 。 通 过 
以 上 文献 分 析 可 知 : a) 通常 主要 从 HTML 标签 、URL 地 址 、 
编码 、 页 面 图 片 等 方面 对 网 页 进行 特征 提取 ("1， 特 征 维 数 较 
高 ， 存 在 大 量 元 余 特 征 ， 影 响 分 类 模型 的 准确 率 ; b) 单 分 类 器 
模型 分 类 性 能 有 限 ， 存 在 泛 化 能 力 和 容错 性 较 差 等 问题 。 
针对 以 上 问题 ， 本 文 提出 一 种 基于 特征 选择 和 集成 学 习 算 
法 的 钓鱼 网 站 检测 方法 。 其 中 ， 特 征 选择 能 有 效 减 少 大 量 元 余 
特征 ， 从 而 提高 钓鱼 网 站 预测 的 准确 率 上 -20、 降 低 时 间 开销 ; 
使 用 集成 学 习 算 法 综合 各 基 分 类 器 的 分 类 结果 构建 分 类 模型 ， 
能 有 效 提 高 分 类 模型 的 容错 性 和 泛 化 能 力 ， 从 而 降低 钓鱼 网 站 
预测 的 误 判 率 。 在 特征 选择 阶段 ， 本 文 提出 了 基于 信息 增益 率 
和 随机 森林 的 特征 选择 算法 (feature selection based on 
importance and gain rate,FSIGR )。FSIGR 特征 选择 算法 分 为 过 
滤 和 封装 两 个 阶段 。 在 过 滤 阶 段 ， 以 特征 与 类 别 的 信息 相关 性 
为 依据 对 特征 进行 选择 ， 在 封装 阶段 ， 对 选择 后 的 特征 从 信息 
相关 性 和 分 类 能 力 两 个 维度 计算 特征 权重 向 量 和 综合 权重 并 排 
序 ， 使 用 前 项 递增 后 向 递归 删除 策略 进行 选择 ， 并 以 分 类 精度 
为 依据 对 特征 子 集 进 行 评估 ， 从 而 选 出 相关 性 强 、 元 余 度 低 的 
最 优 特征 子 集 ， 提 高 钓鱼 网 站 预测 的 准确 率 。 在 分 类 阶段 ， 使 
用 随机 森林 集成 学 习 分 类 算法 对 数据 进行 训练 得 到 最 终 的 分 类 
降低 钓鱼 网 站 预测 的 误 判 率 。 实 验 结果 表明 ， 本 文 提出 
的 钓鱼 网 站 检测 方法 能 有 效 提高 钓鱼 网 站 预测 的 准确 率 ， 降 低 
误 判 率 。 


1 ”基础 理论 
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确定 性 的 一 种 数学 表达 ， 也 是 对 变量 本 身 或 变量 集合 所 含有 的 
平均 信息 量 的 一 种 度量 ,通常 用 H(X) 表 示 。 设 X= 
(x X2, so Xa) 与 了 = {Yr Y» .本 是 两 个 随机 变量 ， p(Xi) 和 
p(yi) 为 概率 密度 函数 ， 则 随机 变量 X 的 炉 有 H(X) 定 义 为 


H(X) = — Xit px) logzp(xi) (1) 
随机 变量 X 和 7Y 的 条 件 焙 定 义 为 
H(X|Y) = Xiz pO) HIY = y) (2) 


AKTERSHQX|Y) < H(X) 用 来 衡量 变量 X 和 Y 的 相关 性 。 若 变 
量 X 与 Y 不 相关 ， 则 H(XIY) = H(X); 若 变量 X 与 Y 相 关 ， 则 
H(X|Y) < H(X); 且 H(X) — H(XIY) 值 越 大 , 变量 X 和 Y 相 关 性 越 


信息 增益 (information gain, IG) 是 对 一 个 随机 变量 在 另 一 

个 随机 变量 确定 的 情况 下 相关 信息 量 的 度量 。 信 息 增益 具有 非 

对 称 性 ， 是 一 种 无 量 纲 的 度量 标准 ， 值 越 大 ， 说 明 变量 之 间 的 
相关 性 越 强 。 信 息 增 益 与 粹 、 条 件 粹 的 关系 为 

IG(X|Y) = H(X) — R(X|Y) (3) 

式 (3) 可 以 看 出 ，IG(X|Y) 值 越 大 ， 说明 变量 X 与 7 相关 

性 越 强 。 其 中 1G(X|Y) 表 示 变 量 Y 的 信息 增益 。 

在 信息 系统 中 ， 经 常 使 用 信息 增益 来 衡量 某 个 特征 对 信 

系统 分 类 的 贡献 ， 以 降低 样 例 中 噪声 的 敏感 度 。 但 由 于 信息 增 

益 存 在 偏好 选择 分 支 较 多 的 特征 ， 导 致 过 拟 合 的 发 生 。 因 此 ， 


在 使 用 时 经 常 引 入 惩罚 因子 ， 以 对 分 支 较 多 的 特征 进行 惩罚 ， 
即 信 息 增益 率 (Gain Ratio, GR). 
_ IG(X|Y) 
GR(X|Y) = E (4) 


x (4) 可 以 看 出 ， 随 机 变量 Y 的 信息 增益 率 与 其 信息 增 
益 成 正比 , 与 其 信息 粹 成 反比 ,因此 , 当 随 机 变量 Y 取 值 较 多 时 ， 
GR(XIY) 会 随 着 H(Y) 的 增 大 而 减 小 ， 在 一 定 程度 上 降低 了 选择 
偏好 的 发 生 。 
1.2 ”随机 森林 与 重要 度 测评 

随机 森林 (random forest, RF) 是 一 种 集成 学 习 算 法 ， 它 使 
随机 重 采 样 技术 和 节点 随机 分 裂 技术 构建 多 棵 决策 树 ， 并 根 
据 投 票 机 制 产生 最 后 的 结果 。 由 于 RF 对 于 噪声 数据 和 在 在 缺 
失 值 的 数据 具有 很 好 的 鲁 棒 性 ， 并 且 县 有 较 快 的 学 习 速度 ， 其 
变量 重要 性 度量 可 以 作为 高 维 数据 的 特征 选择 工具 ， 所 以 近年 
来 已 经 被 广泛 应 用 于 各 种 分 类 、 预 测 、 特 征 选择 以 及 异常 点 检 
测 问题 中 2。 
基于 随机 森林 的 重要 度 测 评 ， 是 通过 袋 外 数据 Coutofbag 
OOB) 检测 和 添加 随机 噪声 的 操作 来 判断 特征 属性 对 输出 变量 
的 影响 ， 影 响 越 大 ， 则 说 明 该 特征 越 重 要 P3-25。 
主要 步骤 如 下 : 

设 随 机 森林 包括 M 棵 分 类 回归 树 。 为 测度 第 /个 特征 属性 对 
输出 变量 的 重要 性 ， 对 随机 森林 中 的 每 棵 分 类 树 进 行 处 理 。 对 
第 iGi = 12,…, M) 棵 分 类 回归 树 : 

a) 计算 第 i 棵 分 类 回归 树 基于 袋 外 观测 的 预测 误差 率 , 记 为 


Seer 


RU 
L 


Hu 


eio 


b) 随机 打 乱 袋 外 观测 在 第 /个 特征 属性 上 的 取 值 顺序 ， 
新 建立 第 i 棵 分 类 回归 树 并 袋 外 观测 进行 预测 。 

c) 重 新 计算 第 i 棵 分 类 回归 树 的 预测 误差 , 记 为 e .sy = e; — 
ez 为 第 /个 特征 属性 添加 噪声 导致 的 第 i 棵 分 类 回归 树 预测 误差 
的 变化 。 
重复 上 述 步骤 ， 最 终 得 到 M 个 预测 误差 的 变化 。si = 
El 中 即 为 第 /个 输入 变量 加 噪声 导致 的 随机 森林 总 体 预 测 
误差 的 平均 变化 , 它 测度 了 第 j 个 输入 变量 的 重要 性 。 
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录用 稿 周 传 华 ， Ts 集成 学 习 的 钓鱼 网 站 检测 方法 


RE 示 特 征 子 集 的 大 小 )， 并 使 用 分 类 器 对 该 特征 集合 进行 评估 , 记 
和 Nae Ha < ai_1， 则 从 集合 F 中 删除 元 素 ， 直 至 循环 结束 。 
24 FSIGR 特征 选择 方法 该 选择 策略 的 优点 是 : 在 综合 评估 的 基础 上 ， 使 用 分 类 精 

特征 选择 是 指 在 保证 特征 集合 分 类 性 能 的 前 提 下 ， 从 一 组 ” 度 来 再 次 评估 每 个 特征 对 整体 的 分 类 贡献 ， 可 以 在 不 牺牲 算 法 
原始 特征 集合 中 选 出 具有 代表 性 的 特征 子 集 ， 以 达到 降低 特征 ”精度 的 情况 下 降低 特征 的 波动 性 ， 并 删除 重要 度 较 小 的 元 余 属 
空间 维 数 的 过 程 P9。 根 据 是 否 依赖 机 器 学 习 算法 ， 特 征 选择 算 。 性 。 每 次 删除 特征 元 素 后 ， 都 会 重新 遍历 特征 集合 ， 以 产生 新 
法 可 以 分 为 过 滤 式 (filter) 和 封装 式 (wrapper) 两 种 。 过 滤 式 的 特征 组 合 ， 扩 大 特征 子 集 搜索 空间 的 履 六 范围， 从 而 选 出 最 
特征 选择 算法 利用 数据 的 内 在 特性 对 选取 的 特征 子 集 进行 评价 ”小 元 余 、 性 能 最 优 的 特征 集合 。 
和 选择 ， 独 立 于 机 器 学 习 算法 ， 该 类 算法 通常 运行 效率 较 高 ， 与 前 向 、 后 向 搜索 策略 相 比 ， 本 文 搜索 策略 在 排序 的 基础 
但 分 类 性 能 较 差 ， 而 封装 式 特 征 选择 算法 则 依赖 于 机 器 学 习 算 ”上 以 特征 子 集 的 整体 分 类 性 能 为 评价 指标 ， 递 归 吻 除 元 余 且 ci 
法 的 分 类 精度 作为 特征 子 集 选择 的 评价 准则 ， 该 类 算法 选择 的 最 小 的 特征 ， 可 以 在 不 牺牲 算法 精度 的 情况 下 降低 特征 的 波动 
特征 集合 分 类 性 能 较 优 ， 但 效率 较 低 。 以 信息 增益 率 和 重要 度 。 性 。 与 文献 [19,23] 中 的 过 滤 式 方法 相 比 , 本 文采 用 过 滤 + 封 装 的 


测评 为 基础 ， 毕 合 过 滤 式 和 封装 式 特征 选择 算法 的 优点 ， 本 文 ” 模式 ， 提 高 了 特征 子 集 的 分 类 性 能 
提出 FSIGR 特征 选择 算法 。 FSIGR 算法 描述 如 下 : 
FSIGR 算法 包括 过 滤 和 封装 两 个 阶段 ， 关 键 步骤 如 下 : 输入 : 数据 集 D， 特 征集 合 F={fili = 1.p} amar =0, Fpest = Ø- 
) 过 滤 无 关 特征 并 对 相关 特征 进行 综合 度量 。 过 程 : 
首先 计算 每 个 特征 关于 类 别 特征 的 GR, 若 其 GR=0， 则 表 分 别 计算 特征 万 关于 类 别 特 征 的 GR 值 g;:， 若 g; 二 0， 则 删除 特征 后， 


示 该 特征 和 类 别 特征 不 相关 ， 并 从 特征 集合 中 删除 该 特征 。 对 F =F- {fi); 
剩余 特征 子 集中 的 每 个 特征 计算 综合 度量 值 。 使 用 随机 森林 计算 特征 f: 重 要 度 值 ， 并 记 为 m;; 
设 数据 集 为 D， 特 征 属性 集 为 F={fi|i = 1 .…,v}， 首 先 对 数 ZHR C50 (6) 分 别 对 mi;，gi 进 行 标准 化 ， 得 到 元 :，f.; 


据 集 中 的 特征 分 别 使 用 GR 和 RF 两 种 方法 计算 特征 的 信息 相 根据 式 〈7) 计算 特征 大 的 综合 评估 值 ci; 
关 性 和 分 类 能 力 ， 然 后 对 计算 结果 分 别 进行 标准 化 处 理 。 具 体 ”根据 特征 的 综合 测评 度 c:， 对 特征 进行 降序 排序 
公式 如 下 : Repeat 
mi = T 使 用 分 类 器 进行 评估 ， 对 排序 后 的 特征 子 集 采 用 前 项 选择 策略 遍历 
Ziza mi 特征 空间 ， 分 别 计算 分 类 器 在 该 特征 子 集 F; 上 的 精确 度 a:， 其 中 i 表示 
gi 特征 子 集中 元 素 的 个 数 ; 
ub: um "m flag — false 
其 中 :mi 和 8g&i 分 别 表 示 RF 和 GR 算法 对 特征 (i = 1,.., v)ffü for a; (i2 1..v) do 
权重 ; fg RIA) mde Eb EJ BS JEU RA E I dE if a; < aj, then 
c; = (fij, JQ) Erb Rug dez I] EL EI A b FB.» 18] Ee BE HE DU flag = true 
表示 特征 万 的 重要 度 。 从 集合 F 中 删除 特征 户 ， 并 记录 删除 特征 f 后 分 类 器 的 精度 为 
计算 特征 fi 的 综合 评估 值 ci: Qtemp; 
if amax < atemp then 
ci = [m 4 a CD B 
amax = atemp» Fpest = F 
A CD P, AEKA g, EET EJER HH e; WER end if 
特征 上 进行 综合 度量 ， 既 考虑 了 特征 所 与 类 别 特 征 之 间 相关 性 ， break 
又 考虑 到 了 特征 上 的 分 类 能 力 , 增强 了 对 特征 的 度量 , 降低 了 特 end if 
征 的 波动 性 。 从 而 选择 出 最 大 相关 和 最 大 分 类 能 力 的 特征 。 与 end for 


文献 [19] 中 的 IG 相 比 ， 本 文 使 用 GR 计算 特征 的 信息 相关 性 降 until flag == false 达到 终止 条 件 
IRT IG 的 选择 偏好 问题 ;与 文献 [23] 中 MDA-MDG 的 方法 相 输出， 最 优 特 征 子 集 局 esr- 
比 ， 本 文 从 特征 信息 相关 性 和 分 类 能 力 两 种 不 同 的 维度 对 特征 2.2 FSIGR 算法 复杂 度 分 析 


进行 度量 ， 并 使 用 向 量化 映射 关系 求解 特征 综合 度量 值 c;:， 降 算法 的 时 间 开 销 主要 两 个 部 分 : 
低 了 特征 的 波动 性 。 a) 过 滤 阶 段 。 根 据 每 个 特征 的 信息 相关 性 对 特征 进行 过 滤 ， 
b) 采用 前 向 递增 后 向 递归 吻 除 的 策略 进行 特征 选择 。 结合 特征 的 分 类 能 力 对 特征 进行 综合 度量 。 


根据 c 对 特征 进行 降序 排序 ， 使 用 前 向 递增 策略 遍历 特征 b) 封 装 阶段 。 根 据 特征 的 综合 度量 对 特征 ; 
空间 , 每 次 增加 一 个 特征 得 到 相应 的 特征 集合 Fi, Fz, …, Fu (v 表 前 向 递增 后 向 递归 剔除 搜索 策略 选择 特征 子 旨 


:201805.00037v1 


chinaXiv 


录用 稿 


对 特征 子 集 进行 评估 。 

算法 时 间 开 销 主 要 体现 在 封装 阶段 ,根据 文献 [22] 可 知 , 若 
训练 数据 集 的 特征 维 数 为 m， 训练 样本 个 数 为 n, 假设 随机 森林 
中 基 分 类 器 的 个 数 为 k， 则 随机 森林 算法 的 时 间 复 杂 度 近似 为 
O(kmn(log n)*)， 快 速 排序 平均 时 间 复 杂 度 为 0(m(log m))。 

因此 ， 在 本 文 算 法 中 过 滤 阶 段 时 间 复 杂 度 为 0(Om 十 
kmn(log n)*)， 封 装 阶段 外 层 循环 最 多 运行 m 次 ， 每 次 循环 采 
用 前 向 增加 策略 进行 特征 选择 时 分 别 进行 (m, m — 1, m 一 
2,…,1) 次 ， 采 用 后 向 递归 剔除 策略 时 ， 平 均 运 行 m/2 次 ， 最 多 
运行 m 一 1 次 。 因此, FSIGR 算法 最 大 时 间 复 杂 度 可 以 近似 表示 
为 


O(m + kmn(logn)?) 4 O(m(logm)) 

+ O(m-1/2* m(m — 1)) 4 O(m - 1) 

= O(m(1/2 * (m + 5) + kn(logn)? + logm) (8) 

T(n) = O(m?) (9) 

于 本 文 算法 在 运行 过 程 中 临时 占用 存储 空间 大 小 与 特征 

个 数 成 线性 正比 关系 ， 所 以 空间 复杂 度 可 以 表示 为 
S(n) = O(m) 


ei ed 


式 (9) 和 (10) 可 以 看 出 ，FSIGR 算法 的 最 大 时 间 复 杂 度 与 


特征 维 数 近似 平方 ,空间 复杂 度 与 特征 维 数 成 线性 关系 , 因此 ， 


FSIGR 算法 对 高 维 
展 性 。 
2.3 钓鱼 网 站 检测 模型 


数据 具 


9 较 好 的 处 理 能 力 ， 且 


图 1 为 本 文 钓 鱼网 站 检测 模型 。 其 主 如 


有 很 好 的 扩 


包含 


个 部 分 : 


a) 特征 提取 。 对 网 页 内 容 进 行 解析 , 并 提取 相关 特征 ;〈 本 


文 实验 部 分 数据 集 
bo 特征 选择 。 采 | 
和 特征 子 旬 


— 


o 


YE 

38 
> 
过 
El 
E: 
X 
ES 


E 
rl 
Br 


c) 分 类 决策 模型 。 
型 ， 有 效 提 高 钓鱼 网 站 检 疯 
该 模型 的 主要 执行 流程 如 


址 、 编 码 、 页 面 图 


Ai 
Sr ÀJ 


特征 选择 ， 


本 文 FSIGR 特征 选择 算法 从 单个 特征 
二 特征 进行 评估 和 选择 ， 从 而 选择 出 相关 
性 高 ， 宛 余 度 低 的 最 优 特征 子 集 。 


使 用 RF 集成 学 习 算 法 构建 分 类 决策 模 
I 模型 的 分 类 精度 。 
: 首先 从 HTML 标签 、URL 4 
有 对 网 页 进行 特征 提取 ， 并 转换 成 
练 和 预测 数据 ; 然后 对 提取 后 的 特征 数据 使 用 FSIGR 算法 进 4 
并 找 出 最 优 特征 子 集 ; 


[zx 


ej 三 


最 后 基于 选择 后 的 最 优 特征 


子 集 数据 对 RF 分 类 决策 模型 进行 训练 与 结果 预测 。 


| wl Title 


Copyright Description 


Img | | Frane [Contents| Keyword | String | 


3 ”实验 及 结果 分 析 


3.1 实验 数据 

本 文 使 用 UCI 数据库 中 phishing 数据 集 27 进 行 实验 。 该 数 
据 集 共 包括 11055 个 网 站 实例 ， 其 中 4 898 个 (4496). 被 标记 
为 钓鱼 网 页 ， 用 -1 表示 ; 6157 56%) 被 标记 为 合法 网 页 ， 
] 1 表示 。 每 个 实例 共 包 含 30 个 特征 ， 分 别 基 于 地 址 栏 、 反 常 
标志 、HTML 和 Javascript 以 及 域名 进行 提取 。 特 征 的 取 值 是 
为 二 元 Cl, D 或 三 元 (0，1，-1) 关系 ， 更 多 详细 信息 见 文 
献 [27]。 
3.2 ”实验 说 明 

为 了 充分 验证 本 文 钓鱼 网 站 检测 方法 的 有 效 性 ， 实 验 由 两 
部 分 组 成 。 

实验 1: 验证 FSIGR 算法 的 有 效 性 


S 


€——— —————— 


r 
， 鉴 定 结果 


分 类 结果 


nc ELE 


图 1 钓鱼 网 站 检测 模型 


本 实验 中 选用 CFS (correlation-based feature selection). 
WFS (wrapper feature selection) 算法 以 及 文献 [19] 中 的 算法 与 


FSIGR 算法 进行 实验 对 比 。 使 


] RF 集成 学 习 分 类 算法 对 不 同 


特征 选择 算法 的 实验 结果 进行 验证 ， 
方法 计算 分 类 模型 的 分 类 精度 。 对 比 、 分 析 实 验 结果 ， 


文 特征 选择 方法 的 有 效 性 。 


采用 10 折 交 叉 验 证 的 
验证 本 


实验 2: 验证 本 文 钓 鱼 检测 方法 的 有 效 性 
在 phishing 数 据 集 上 首先 使 用 FSIGR 特征 选择 算法 选 出 最 
优 特 征 子 集 (以 相应 的 分 类 算法 作为 特征 子 集 的 评估 器 ), 然后 


分 别 使 用 
分 类 模型 训练 ， 
对 比 实验 结果 ， 


C4.5、KNN、Naive Bayes, REP Tree 和 RF 算法 进行 
采用 10 折 交 叉 的 方法 计算 分 类 模型 的 精度 。 
验证 本 文 钓鱼 检测 方法 的 有 效 性 。 


KF 


实验 软 硬 件 环境 如 下 : 操作 系统 为 Windows 10, CPU 为 
Intel? Core™ 15-6300HQ @ 2.3 GHz， 实 验 内 存 为 8GB， 主 要 实 
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F&N WEKA, €X Java. 
3.8 评判 指标 


般 采 用 精确 度 和 召回 率 两 个 指标 对 分 类 算法 性 能 进行 评 
判 。 
1) 精确 度 Caccuracy): 又 叫 查 准 率 ， 计 算 公 式 为 
TP+TN 
ACCUTACY = —  NAEPSEN (11) 
2) HEX (recall): 又 叫 查 全 率 ， 计 算 公 式 为 
TP 
recall — SRI (12) 
其 中 : TP Ctrue positive ) 为 被 正确 分 类 为 正 例 的 样本 数 ; FP C false 


positive) 为 被 错误 分 类 为 正 例 的 样本 数 ; TN (true negative) 为 
被 正确 分 类 为 反例 的 样本 数 ; FN (false negative). 为 被 错误 分 
类 为 反例 的 样本 数 。 
3.4 结果 分 析 

实验 中 ，CFS 和 WFS 算法 分 别 采 用 BF(best first) 和 
GS(greedy stepwise) 两 种 搜索 算法 对 特征 进行 选择 ; FSIGR 算法 
则 采用 前 向 递增 后 向 递归 剔除 策略 对 特征 进行 选择 。 有 具体 实验 
结果 如 下 : 
表 2 中 列 出 了 在 phishing 数据 集 上 使 用 不 同 特征 选择 算法 
进行 特征 选择 ， 并 使 用 RF 集成 学 习 分 类 算法 对 特征 子 集 进 行 
训练 ，10 折 交 叉 验 证 的 实验 结果 。 其 中 ， 根 据 文献 [19] 以 闵 值 
0.01 对 GR 和 RF 重要 度 排序 后 的 特征 进行 选择 ，SF 表示 特征 
的 个 数 ，Acc 表示 分 类 精度 ，M-error 表示 平均 绝对 误差 。 AUC 
表示 ROC 曲线 的 面积 。 


长 2 基于 不 同 特征 选择 算法 构建 RF 分 类 预测 模型 实验 结果 /% 


特征 选择 算法 ”SF Acc recall M-error AUC 
GR 11 95.215 3.448 95.2 6.50 99.1 
RF 13 96.002 +2.769 96.0 5.44 99.3 


WFS(BF) 28 97.205 士 2.056 97.2 501 996 
WFS(GS) 29 97.286+2.048 0973 5.09 996 
CFS(BEGS) 9 94.772+3.873 94.8 746 988 
文献 [21] 算 法 “17 96.834+2.292 968 487 995 
FSIGR 23 97341:2.083 973 480 99.6 


ik. 表 中 士 前 面 和 后 面 的 数据 分 别 表示 10 次 测试 结果 的 
平均 分 类 精度 和 方差 。 

表 2 可 以 看 出 ， 本 文 FSIGR 特征 选择 方法 分 类 精度 为 
97.341%， 召 回 率 为 97.3%， 平 均 绝 对 误差 为 0.048， 均 优 于 其 
他 特征 选择 方法 。 其 中 , 文献 [21] 算 法 的 分 类 精度 为 96.83496, 
召回 率 为 96.8%， 平 均 绝 对 误差 为 0.048 7， 分 类 模型 性 能 明显 
低 于 FSIGR 方法 的 分 类 模型 。CFS、GR 和 RF 特征 选择 方法 在 
特征 降 维 方面 表现 较 优 ， 选 择 后 的 特征 子 集 大 小 分 别 为 9 1 
和 13, 但 分 类 精度 较 低 。WFS 特征 选择 方法 两 种 搜索 策略 选择 
的 特征 子 集 大 小 分 别 为 28 和 29， 在 特征 降 维 方面 性 能 低 于 其 
他 方法 ， 分 类 精度 分 别 为 97.205% 和 97.286%， 优 于 CFS 等 方 
法 ， 但 与 本 文 方法 相 比 综合 性 能 较 差 且 时 间 代价 较 大 。 实 验 结 
HU], 本 文 FSIGR 特征 选择 方法 能 够 选 出 特征 维度 较 低 ， 分 


类 性 能 最 优 的 特征 子 集 ， 满 足 实际 应 月 


有 效 性 。 


go 


110 折 交 叉 验证 产生 。 


— 


表 3 不 同 分 类 算法 基于 FSIGR ffi 
构建 分 类 预测 模型 实验 结果 /% 


表 3 中 列 出 了 在 phishing 数据 外 
去 使 用 不 同 分 类 算法 与 本 文 方法 实验 结果 对 比 。 实 验 


需求， 证 


E EIF FSIGR 45i 


F 选 择 算 法 


分 类 算法 SF Acc 


recall 


M-error 


AUC 


C4.5 25 “96.056 土 3.312 
KNN 25 “97.205 土 2.091 
REP Tree 28 “95.432 土 3.602 


Naive Bayes 28 92.999 + 5.308 
RF 23 97.341 +2.053 


96.1 
97.2 
95.4 
93.0 
97.3 


5.68 
3.28 
6.39 
8.94 
4.80 


98.5 
99.0 
98.5 
98.1 
99.6 


平均 分 类 精度 和 方差 。 


算法 相 比 ， 虽 然 平均 绝对 误差 高 于 


能 优 于 KNN 算法 。 由 实验 结果 可 知 ， 
测 方法 分 类 性 能 明显 优 于 C4.5, KNN, REPTree, NaiveBayes 
算法 的 分 类 性 能 ， 验 证 了 本 文 方法 的 有 效 性 。 

受 试 者 工作 特征 (receiver operating characteristic, ROC) 
体现 了 综合 考虑 分 类 模型 在 不 同 任务 下 的 泛 化 怕 
下 的 面积 ， 即 AUC (areaunder ROC curve) 越 大 ， 则 表示 该 分 
类 模型 的 泛 化 能 力 越 强 。 由 表 2 可 以 看 出 ， 在 同 种 分 类 器 下 本 
文 提 出 的 FSIGR 算法 的 AUC (87g 0.996, 4) 


算法 , 证 明了 本 文 FSIGR 算法 的 适用 


性 四 


同 种 特征 选择 算法 下 ，RF 分 类 模型 


的 AU 


于 其 他 特 行 
昌 表 3 可 以 看 出 , 在 
值 为 0.996， 优 于 


E 能 , ROC 


ik: 表 中 士 前 面 和 后 面 的 数据 分 别 表 示 10 次 测试 结果 了 


表 3 可 知 ， 本 文 方法 的 分 类 精度 为 97.341%， 分 类 召 
率 为 97.3%, 平均 绝对 误差 为 0.048， 特 和 
分 类 性 能 明显 优 于 C4.5、REPTree 和 NaiveBayes 算法 ,与 KNN 
IN 的 0.328, 但 其 
本 文 提出 的 钓鱼 网 站 检 


E 子 集 维 数 为 23, 综合 


结果 均 采 


y 
综合 


其 他 分 类 模型 ， 证 明了 RF 集成 学 习 模型 


因此 ， 本 文 提 出 的 钓鱼 网 站 检测 模型 


ROC curve of RF (AUC = 0.9960) 


有 较 强 的 容错 性 。 


有 较 强 的 泛 化 能 


True Positive Rate 


T T 
0.0 0.2 0.4 


False Positive Rate 


3. A 中 描述 了 CA.5 算法 在 phishing 数 
子 集 上 不 同 特 征 维度 的 分 类 精度 变化 折线 医 


图 2 基于 FSIGR 算法 RF 分 类 决策 模型 ROC 


据 集 和 最 优 特 征 
图 3 


[选择 
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3048 周 传 华 ， 等 : 基于 特征 选择 与 集成 学 习 的 钓鱼 网 站 检测 方法 


角 代 表 特 征 子 集中 加 入 当前 特征 后 分 类 精度 不 变 ， 红 色 三 角 代 FSIGR 方法 能 够 从 信息 相关 性 和 分 类 能 力 两 个 方面 对 特征 进行 
表 特 征 子 集中 加 入 当前 特征 后 分 类 精度 下 降 〈 见 电子 版 )。 图 5 综合 度量 ， 从 而 选 出 相关 性 强 、 元 余 度 低 的 最 优 特征 子 集 ， 提 


pau 


中 描述 了 RF 集成 学 习 算 法 在 最 优 特 征 子 集 上 不 同 特征 维度 的 。 ”高 了 分 类 器 的 分 类 精度 。 本 实验 证 明了 FSIGR 特征 算法 能 有 效 
分 类 精度 变化 折线 图 。 降低 特征 子 集 的 维度 选 出 关键 特征 ， 从 而 提高 分 类 模型 的 准确 
ES 
- 由 图 4、5 可 以 看 出 ,RF 集成 学 习 算法 分 类 精度 为 97.341%， 
ui ind 特征 维度 为 23 明显 优 于 C4.5 单 分 类 器 的 96.056% 和 25。 这 是 
| 因为 集成 学 习 算法 能 够 通过 综合 不 同 基 分 类 器 模型 的 分 类 结果 
时 增强 集成 学 习 算 法 的 容错 性 和 泛 化 能 力 ， 从 而 达到 提高 分 类 精 
Sn 度 ， 分 类 召回 率 降 低 分 类 误差 的 目的 。 本 文 实验 证 通过 明了 集 
ss- 成 学 习 算 法 对 钓鱼 网 站 检测 的 有 效 性 ， 从 而 证 明 力 本 文 钓鱼 网 
d 站 检测 方法 的 有 效 性 。 
0 5 10 ER 20 25 30 4 结 Xin 
图 3 在 phishing 数据 集 上 不 同 特征 维度 C4.5 分 类 精度 变化 折线 图 


本 文 提出 来 了 一 种 基于 特征 选择 和 集成 学 习 的 钓鱼 网 站 检 
测 方法 。 该 方法 首先 运用 FSIGR 算法 选择 出 相关 性 强 、 宛 余 度 


| e] 低 的 最 优 特征 子 集 ， 然 后 使 用 最 优 特征 子 集 数据 集 基于 RF f 
P A 成 学 习 分 类 算法 进行 分 类 模型 训练 来 提高 分 类 预测 模型 的 准确 


p 
Yr 
Yr 


^ 率 ,通过 FSIGR 算法 和 CFS WFS 以 及 文献 [19] 算 法 在 phishing 
2 931 上 " Ir > 
E 数据 集 上 的 实验 结果 表明 FSIGR 算法 在 特征 降 维 和 提高 分 类 
& 92 
a 精度 方面 均 有 很 好 的 表现 , 证 明了 FSIGR 算法 的 有 效 性 。 通 过 
" 对 FSIGR 算法 进行 时 间 复 杂 都 分 析 发 现 , FSIGR 算法 对 高 维 数 
- 据 有 较 好 的 处 理 能 力 ， 具 有 较 好 的 扩展 性 。 通 过 RF 集成 学 习 
M 5 10 15 20 25 算法 和 C4... KNN, REPTree 以 及 NaiveBayes 算法 在 phishing 
特征 序号 
数据 集 上 的 实验 表明 RF 集成 学 习 算法 分 能 性 能 明显 优 于 其 他 
图 4 在 FSIGR 选择 的 最 优 特征 子 集 上 Np a Mi bs 
v ' 单 分 类 器 模型 ， 具 有 分 类 准确 率 高 、 分 类 误差 率 低 和 召回 率 高 
不 同 特征 维度 C4.5 分 类 精度 折线 图 Mon ob | GONNA 
等 优点 。 基 于 以 上 和 叙述， 证 明了 本 文 钓鱼 网 站 检测 方法 的 有 效 
性 和 实际 应 用 性 。 
AARE As OG] HE RER ERITH, i EA 
| max:97.341. SA. B vyn- 
d 征 子 集 ， 构 建 钓鱼 网 站 的 检测 模型 ， 提 高 模型 预测 的 准确 率 是 
NY 笔者 下 一 步 工作 的 重点 。 
" 
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